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(57) Abstract: The invention relates to a method for detecting the time sequences of a fundamental frequency of an audio-response 
unit to be synthesised. The invention is characterised in that input macro segments of the fundamental frequency are detected by 
means of a neuronal network and are reproduced by means of fundamental frequency sequences that are stored in a data base. Ac- 
cording to the inventive method, the fundamental frequency is produced based on a greater text section which is analysed by means 
of the neuronal network. Microsuiictures are transferred from the data base to the fundamental frequency. The thus produced fun- 
damental frequency is optimised in the macro and microstructure thereof. An exu-emely natural sound is thus obtained. 

(57) Zusammenfassung: Die Erfindung betrifft ein Verfahren zum Bestimmen des zeidichen Verlaufs einer Grundfrequenz einer 
2U synthetisierenden Sprachausgabe. Die Erfindung zeichnei sich dadurch aus, dafi Vorgabemakrosegmente der Grundfrequenz 
mittels eines neuronalen Netzwerkes bestimmt werden, und diese Vorgabemakrosegmente mittels in einer Datenbasis gespeicher- 
ten Grundfrequenzsequenzen nachgebildet werden. Durch das erfindungsgemaBe Verfahren wird die Grundfrequenz auf Grundlage 
eines grSBeren Textabschnittes. der mittels des neuronalen Netzwerkes analysiert wird, erzeugt, wobei aus der Datenbasis Mikro- 
struktuien in der Grundfrequenz aufgenommen werden. Die derart gebildete Grundfrequenz isl somit beziiglich ihrer Makro- als 
auch ihrer Mikrostniktiu* optimiert. Hierdurch wird ein auBerst naturlicher Klang erzielt. 
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VerolTentlicht: 

— Ohne inierna/ionaien Hecherchenhericht unci erneui zu 
veroffentlichen nach Erhali des Berichts. 



Zur Erklaning der Zweibuchstaben-Codes, und der anderen 
Ahkurzungen wird auf die Erkiarungen C'Guidancc Notes on 
Codes and Ahhrevialions") am Anfangjeder regidarcn Auxgabe 
der FCT'Gazetle vcrwiesen. 
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Be s chr e ibung 

Verfahren zvm Bestimmen des zeitlichen Verlaufs einer Grund- 
frequenz einer zu synthetisierenden Sprachausgabe 

5 

Die Erfindiing betrifft ein Verfahren zum Bestimmen des zeit- 
lichen Verlaufs einer Grundf requenz einer zu synthetisieren- 
den Sprachausgabe. 

10 Auf der Konferenz ICASSP 91, in Munchen, ist unter dem Titel 
^Recent Improvements on Microsoft's Trainable Text-to-Speech 
System-Whistler X, Huang et al, ein Verfahren zum Syntheti- 
sieren von Sprache aus einem Text vorgestellt worden, das 
vollstandig trainierbar ist und die Prosodie eines Textes an- 

15 hand von in einer Datenbank gespeicherten Prosodiemustern zu- 
sammenstellt und erzeugt. Die Prosodie eines Textes wird im 
wesentlichen durch die Grundf requenz festgelegt^ weshalb die- 
ses bekannte Verfahren auch als Verfahren zur Erzeugung einer 
Grundfrequenz auf Grundlage entsprechender in einer Datenbank 

20 gespeicherter Muster betrachtet werden kann. Zur Erzielung 

einer moglichst natUrlichen Sprachweise sind aufwendige Kor- 
rekturverf ahren vorgesehen, die die Kontur der Grundfrequenz 
interpolieren, glatten und korrigieren. 

25 Auf der ICASSP 98, in Seattle, ist unter dem Titel ,,Optimiza- 
tion of a Neural Network for Speaker and Task Dependent Fq- 
Generation"", Ralf Haury et al. ein weiteres Verfahren zum Er- 
zeugen einer synthetischen Sprachausgabe aus einem Text vor- 
gestellt worden. Dieses bekannte Verfahren verwendet zur Er- 

30 zeugung der Grundfrequenz anstelle einer Datenbank mit Mu- 

stern ein neuronales Netzwerk, mit dem der zeitliche Verlauf 
der Grundfrequenz fur die Sprachausgabe festgelegt wird, 

Mit den oben beschriebenen Verfahren soil eine Sprachausgabe 
35 geschaffen werden, die keinen metallischen, mechanischen und 
unnaturlichen Klang besitzt, wie es von herkommlichen Sprach- 
synthesesystemen bekannt ist. Diese Verfahren stellen eine 
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deutliche Verbesserung gegentlber den herkommlichen Sprachsyn- 
thesesystemen dar. Es bestehen dennoch erhebliche klangliche 
Unterschiede zwischen der auf diesen Verfahren beruhenden 
Sprachausgabe und einer menschlichen Stimme. 

5 

Insbesondere wird bei einer Sprachsynthese/ bei der die 
Grundf requenz aus einzelnen Grundf requenzmustern zusammenge- 
setzt wird/ nach wie vor ein metallischer, mechanischer Klang 
erzeugt, der deutlich von einer naturlichen Stiirutie unter- 
10 schieden werden kann, Wird die Grundf requenz hingegen mit ei- 
nem neuronalen Netzwerk festgelegt, klingt die Stimme zwar 
naturlicher^ aber ist etwas dumpf. 

Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfah- 
15 ren zum Bestimmen des zeitlichen Verlaufs einer Grundf requenz 
einer zu synthetisierenden Sprachausgabe zu schaffen, die der 
Sprachausgabe einen natUrlichen^ einer menschlichen Stimme 
sehr ahnlichen Klang verleiht. 

20 Die Aufgabe wird durch ein Verfahren mit den Merkmalen des 

Anspruchs 1 gelOst. Vorteilhafte Ausgestaltungen sind in den 
Unteransprtlchen angegeben. 

Das erf indungsgemafie Verfahren zum Bestimmen des zeitlichen 
25 Verlaufs einer Grundf requenz einer zu synthetisierenden 
Sprachausgabe umfaBt folgende Schritte: 

Bestimmen von Vorgabemakrosegmenten der Grundf requenz mittels 
eines neuronalen Netzwerkes, und 

30 Bestimmen von Mikrosegmenten mittels in einer Datenbasis ge- 
speicherten Grundf requenzsequenzen, wobei die Grundf requenz- 
sequenzen derart aus der Datenbasis ausgewahlt werden, dafi 
durch die auf einanderf olgenden Grundf requenzsequenzen das je- 
weilige Vorgabemakrosegment mit moglichst geringer Abweichung 

35 nachgebildet wird. 
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Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daJ5 
die Bestimmung des Verlaufs einer Grundf requenz mittels eines 
neuronalen Netzwerkes die Makrostruktur des zeitlichen Ver- 
laufs einer Grundf requenz sehr ahnlich zu dem Verlauf der 
5 Grundf requenz einer naturlichen Sprache erzeugt, und die in 
einer Datenbasis gespeicherten Grundf requenzsequenzen sehr 
ahnlich die Mikrostruktur der Grundf requenz einer naturlichen 
Sprache wiedergeben. Durch die erf indungsgemaBe Kombination 
wird somit eine optimale Bestiiamung des Verlaufs der Grund- 

10 f requenz erzielt, die sowohl in der Makrostruktur als auch in 
der Mikrostruktur der der nattirlichen Sprache wesentlich ahn- 
licher ist/ als bei einer mit den bisher bekannten Verfahren 
erzeugten Grundf requenz . Hierdurch wird eine betrachtliche 
Annaherung der synthetischen Sprachausgabe an eine natiirliche 

15 Sprache erzielt. Die hierdurch erzeugte synthetische Sprache 
ist der naturlichen Sprache sehr ahnlich und kann kaum von 
dieser unterschieden werden, 

Vorzugsweise wird die Abweichung zwischen dem Nachbildungsma- 
20 krosegment und dem Vorgabemakrosegment mittels einer Kosten- 
funktion ermittelt, die derart gewichtet ist, daB bei gerin- 
gen Abweichungen von der Grundf requenz des Vorgabemakroseg- 
ments lediglich eine kleine Abweichung ermittelt wird, wobei 
bei Uberschreitung vorbestimmter Grenzf requenzdif f erenzen die 
25 ermittelten Abweichungen stark bis zum Erreichen eines Satti- 
gungswertes ansteigen. Dies bedeutet, dalJ alle Grundf requenz- 
sequenzen, die innerhalb des Bereiches der Grenzf requenzen 
liegen, eine sinnvolle Auswahl zur Nachbildung des Vorgabema- 
krosegiuents darstellen und die Grundf requenzsequenzen, die 
30 auBerhalb des Bereiches der Grenzf requenzdif f erenzen liegen, 
als wesentlich ungeeigneter zur Nachbildung des Vorgabemakro- 
segments bewertet werden. Diese Nichtlinearitat bildet das 
nichtlineare Verhalten des menschlichen Gehors ab, 

35 Nach einer weiteren bevorzugten Ausf uhrungsf orm der Erfindung 
werden Abweichungen desto schwacher gewichtet, je naher sie 
am Rand einer Silbe angeordnet sind. 
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Die Nachbildung des Vorgabemakrosegments erfolgt vorzugsweise 
durch Erzeugung mehrerer Grundf requenzsequenzen ftir jeweils 
eine mikroprosodische Einheit, wobei Kombinationen von Grund- 

5 f requenzsequenzen sowohl beztiglich der T^Dweichung vom Vorga- 
bemakrosegment als auch beztiglich einer paarweisen Abstimmung 
bewertet werden. In Abhangigkeit des Ergebnisses dieser bei- 
den Bewertungen (Abweichung vom Vorgabemakrosegments Abstim- 
mung zwischen benachbarten Grundf requenzsequenzen) wird dann 

0 eine entsprechende Auswahl einer Kombinatiori von Grundfre- 
quenzsequenzen getroffen. 

Mit dieser paarweisen Abstimmung werden insbesondere die 
Obergange zwischen benachbarten Grundf requenzsequenzen bewer- 

5 tet, wobei hier groBere Sprtinge vermieden werden sollen. Nach 
einer bevorzugten AusfUhrungsf orm der Erfindung werden diese 
paarweisen Abstimmungen der Grundf requenzsequenzen innerhalb 
einer Silbe starker gewichtet als am Randbereich der Silbe. 
Der Silbenkern ist im Deutschen maBgeblich ftir den Horein- 

0 druck. 



Das erfindungsgemaBe Verfahren wird nachfolgend anhand eines 
in der Zeichnung dargestellten AusfUhrungsbeispieles naher 
erlautert. In den Zeichnungen zeigen schematisch: 

Fig. la bis Id den Aufbau und das Zusammensetzen des 

zeitlichen Verlaufes einer Grundf requenz in vier 
Schritten, 

Fig. 2 eine Funktion zur Gewichtung einer Kostenf unktion zur 
Bestimmung der Abweichung zwischen einem Nachbil- 
dungsmakrosegment und einem Vorgabemakrosegment, 



Fig. 3 den Verlauf einer aus mehreren Makrosegmenten beste- 
henden Grundf requenz. 
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Fig. .4 schematisch vereinfacht den Aufbau eines neuronalen 
Netzwerkes, 

Fig. 5 das erf indungsgemaBe Verfahren in einem Flufidiagramm, 
5 und 

Fig. 6 ein Verfahren ziim Synthetisieren von Sprache, daB auf 
dem erf indungsgemaBen Verfahren beruht. 

10 In Fig. 6 ist ein Verfahren zum Synthetisieren von Sprache, 
bei dem ein Text in eine Folge akustischer Signale, gewandelt 
wird/ in einem FluBdiagramm dargestellt. 

Dieses Verfahren ist in Form eines Computerprogrammes reali- 
15 siert, das mit einem Schritt SI gestartet wird. 

Im Schritt S2 wird ein Text eingegeben, der in Form einer 
elektronisch lesbaren Textdatei vorliegt. 

20 Im folgenden Schritt S3 wird eine Folge von Phonemen, das 

heiBt eine Lautfolge, erstellt, wobei den einzelnen Graphemen 
des Textes, das sind jeweils einzelne oder mehrere Buchsta- 
ben, denen jeweils ein Phonem zugeordnet ist, ermittelt wer- 
den. Es werden dann die den einzelnen Graphemen zugeordneten 

25 Phoneme bestimmt, wodurch die Phonemfolge festgelegt ist. 

Im Schritt S4 wird eine Betonungsstruktur bestimmt, das heiBt 
es wird bestimmt/ wie stark die einzelnen Phoneme betont wer- 
den sollen. 

30 

Die Betonungsstruktur ist in Fig. la mittels eines Zeitstrah- 
les anhand des Wortes ,,stop'' dargestellt. DemgemaB sind dem 
Graphem „st^' die Betonungsstuf e 1, dem Graphem ,,o'' die Beto- 
nungsstufe 0,3 und dem Graphem „p'' die Betonungsstuf e 0,5 zu- 
35 geordnet worden. 
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Nachfolgend wird die Dauer der einzelnen Phoneme bestimmt 
(55) • 

Im Schritt S6 wird der zeitliche Verlauf der Grundf requenz 
5 bestimmt/ was unten naher ausgefUhrt ist, 

Nachdem die Phonemfolge und die Grundf requenz festgelegt 
sind/ kann eine Wave-Datei auf Grundlage der Phoneme und der 
Grundf requenz erzeugt werden iS7) , 

10 

Die Wave-Datei wird mittels einer akustischen Ausgabeeinheit 
und einem Lautsprecher in akustische Signale umgesetzt (S8) , 
womit die Sprachausgabe beendet ist (S9) • 

15 Erf indungsgemafi wird der zeitliche Verlauf der Grundf requenz 
der zu synthetisierenden Sprachausgabe mittels eines neurona- 
len Netzwerkes in Kombination mit in einer Datenbasis gespei- 
cherten Grundf requenzsequenzen erzeugt, 

20 Das Verfahren, das dem Schritt S6 aus Fig. 6 entspricht, ist 
ausfahrlicher in Fig. 5 in einem Fluiidiagramm dargestellt. 

Dieses Verfahren zum Bestimmen des zeitlichen Verlaufs der 
Grundf requenz ist ein Unterprogramm zu dem in Fig. 6 gezeig- 
25 tern Programm. Das Unterprogramm wird mit dem Schritt SIO ge- 
startet. 

Mit dem Schritt Sll wird ein Vorgabemakro segment der Grund- 
f requenz mittels eines neuronalen Netzwerkes bestimmt. Ein 

30 derartiges neuronales Netzwerk ist schematisch vereinfacht in 
Fig. 4 gezeigt. Das neuronale Netzwerk weist an einer Einga- 
beschicht I Knoten zur Eingabe einer phonetisch linguisti- 
schen Einheit PE des zu synthetisierenden Textes und eines 
Kontextes Kl, Kr links und rechts von der phonetisch lingui- 

35 stischen Einheit auf. Die phonetisch linguistische Einheit 
besteht z.B. aus einer Phrase, einem Wort oder einer Silbe 
des zu synthetisierenden Textes, zu der das Vorgabemakroseg- 
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ment der Grundf requenz bestimmt warden soli. Der linke Kon- 
text Kl und der rechte Kontext Kr stellen jeweils einen Text- 
abschnitt links und rechts der phonetischen linguistischen 
Einheit PE dar. Die mit der phonetischen Einheit eingegebenen 
5 Daten loiufassen die entsprechende Phonexaf olge, Betonungsstruk- 
tur und die Lautdauer der einzelnen Phoneme. Die mit dem lin- 
ken bzw. rechten Kontext eingegebenen Inf ormationen umfassen 
zumindest die Phonemfolge, wobei es zweckmaBig sein kann, 
auch die Betonungsstruktur und/oder die Lautdauer mit einzu- 

10 geben. Die Lange des linken und rechten Kontextes kann der 
Lange der phonetisch linguistischen Einheit PE entsprechen, 
also wiederum eine Phrase, ein Wort oder eine Silbe sein. Es 
kann jedoch auch zweckmafiig sein, einen langeren Kontext von 
z.B* zwei Oder drei Wortern als linken oder rechten Kontext 

15 vorzusehen. Diese Eingaben Kl, PE und Kr werden in einer ver- 
steckten Schicht VS verarbeitet und an einer Ausgabeschicht O 
als Vorgabemakrosegment VG der Grundf requenz ausgegeben* 

In Fig. lb ist eine solche Vorgabemakrosegment fur das Wort 
20 ,,stop^' dargestellt. Dieses Vorgabemakrosegment besitzt einen 
typischen dreiecksf ormigen Verlauf , der zunachst mit einem 
Anstieg beginnt und mit einem etwas kiirzeren Abfall endet. 

Nach der Bestimmung eines Vorgabemakrosegmentes der Grundfre- 
2 5 quenz werden in den Schritten S12 und SI 3 die dem Vorgabema- 
krosegment entsprechenden Mikrosegmente bestimmt. 

Im Schritt S12 werden aus einer Datenbasis, in der Graphemen 
zugeordnete Grundf requenzsequenzen gespeichert sind, ausgele- 

30 sen, wobei in der Regel fur jedes Graphem eine Vielzahl von 
Grundf requenzsequenzen vorliegen. In Fig. Ic sind derartige 
Grundf requenzsequenzen fur die Grapheme „st'\ ,,0''' und ,,p'' 
schematisch dargestellt, wobei zur zeichnerischen Vereinfa- 
chung lediglich eine geringe Anzahl von Grundf requenzsequen- 

35 zen gezeigt sind. 
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Diese Grundf requenzsequenzen konnen grundsatzlich beliebig 
miteinander kombiniert werden. Die mSglichen Kombinationen 
dieser Grundf requenzsequenzen werden mittels einer Kosten- 
funktion bewertet. Dieser Verf ahrensschritt wird mittels des 
5 Viterbi-Algorhithmus ausgefiihrt- 

Ftir jede Kombination von Grundf recjuenzsequenzen, die fur je- 
des Phonem eine Grundf requenzsequenz aufweist, wird ein Ko- 
stenfaktor Kf mittels folgender Kostenfunktion berechnet: 

10 

Die Kostenfunktion ist eine Summe von j=l bis 1, wobei j der 
Zahler der Phoneme ist und 1 die Gesamtzahl aller Phoneme 
darstellt. Die Kostenfunktion weist zwei Terme auf, eine lo- 

15 kale Kostenfunktion lok (kij)und eine Verknupf ungskostenfunk- 
tion Ver(kij/ kn/ j+1). Mit der lokalen Kostenfunktion wird 
die Abweichung der i-ten Grundf requenzsequenz des j-ten Pho- 
nems vom Vorgabemakrosegment bewertet- Mit der Verknupf ungs- 
kostenfunktion wird die Abstimmung zwischen der i-ten Grund- 

2 0 frequenz des j-ten Phonems mit der n-ten Grundf requenzsequenz 
des j+1- ten Phonems bewertet. 

Die lokale Kostenfunktion weist beispielsweise folgende Form 
auf : 

25 

iok(j,)=](jy{t)-f,it)ydt 

Die lokale Kostenfunktion ist somit ein Integral tiber den 
Zeitbereich des Beginns ta eines Phonems bis zum Ende te des 
Phonems liber das Quadrat der Differenz der durch das Vorgabe- 
30 makrosegment vorgegebenen Grundf requenz fv und der i-ten 
Grundf recjuenzsequenz des j-ten Phonems. 
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Diese lokale Kostenfunktion ermittelt somit einen positiven 
Wert der Abweichuhg zwischen der jeweiligen Grundf requenzse- 
quenz und der Grundf requenz des Vorgabemakro segments . Zudem 
ist diese Kostenfunktion sehr einfach realisierbar und er- 
5 zeugt durch die parabolische Eigenschaft eine Bewertung, die 
der des menschlichen Gehors ahnelt/ da kleinere TUDweichungen 
vim die Vorgabeseqeunz fv gering bewertet werden, wohingegen 
groBere Abweichungen progressiv bewertet werden. 

10 Nach einer bevorzugten Ausf uhrungsf orm wird die lokale Ko- 
stenfunktion mit einem Gewichtungsterm versehen, der zu dem 
in Fig. 2 dargestellten Funktionsverlauf fuhrt. Das Diagramm 
aus Fig. 2 zeigt den Wert der lokalen Kostenfunktion lok 
(fij) in Abhangigkeit vom Logorhitmus der Frequenz fij der i- 

15 ten Grundf requenzsequenz des j-ten Phonems. Dem Diagramm kann 
man entnehmen, daB Abweichungen von der Vorgabef requenz fv 
innerhalb bestimmter Grenzf requenzen GFl, GF2 nur gering be- 
wertet werden, wobei eine weitere Abweichung einen stark zu- 
nehmenden Anstieg bis zu einem Schwellwert SW bewirkt. Eine 

20 derartige Gewichtung entspricht dem menschlichen Gehor, das 
geringe Frequenzabweichungen kaum wahrnimmt aber ab gewissen 
Frequenzdif f erenzen dies als deutlichen Unterschied regi- 
striert. 

25 Mit der Verkntipf ungskostenfunktion wird bewertet, wie gut 

zwei auf einanderf olgende Grundf requenzsequenzen aufeinander 
abgestimmt sind. Insbesondere wird hierbei die Frequenzdif fe- 
renz an der Verbindungss telle der beiden Grundf requenzsequen- 
zen bewertet, wobei je grofier die Differenz am Ende der vor- 

30 hergehenden Grundf requenzsequenz zur Frequenz am Anf ang der 
nachf olgenden Grundf requenzsequenzen ist, desto groBer ist 
der Ausgabewert der Verkntipf ungskostenf unktion . Hierbei kon- 
nen jedoch noch weitere Parameter berucksichtigt werden, die 
z.B. die Stetigkeit des Oberganges oder dergleichen, wieder- 

35 geben. 
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Bei einer bevorzugten Ausf ilhrungsf orm der Erfindung wird der 
Ausgabewert der Verkntlpfungskostenfunktion umso schwacher ge- 
wichtet/ je naher die jeweilige Verbindungss telle zweier be- 
nachbarter Grundf requenzsequenzen am Rand einer Silbe ange- 
5 ordnet ist. Dies entspricht dem menschlichen Gehdr, das aku- 
stische Signale am Rande einer Silbe weniger intensiv analy- 
siert als im mittleren Bereich der Silbe. Eine derartige Ge- 
wichtung wird auch als perzeptiv dominant bezeichnet. 

GemaJS obiger Kostenfunktion Kf werden ftir jede Kombination 
von Grundf requenzsequenzen der Phoneme einer linguistischen 
Einheit, ftir die ein Vorgabemakrosegment bestimmt worden ist, 
die Werte der lokalen Kostenfunktion und der Verknupf ungsko- 
stenfunktion aller Grundf requenzsequenzen ermittelt und sum- 
miert. Aus der Menge der Kombinationen der Grundf requenzse- 
quenzen wird diejenige Kombination ausgewahlt, ftir die die 
Kostenfunktion Kf den kleinsten Wert ergeben hat, da diese 
Kombination von Grundf requenzsequenzen einen Grundf requenz- 
verlauf ftir die entsprechende linguistische Einheit bildet, 
der als Nachbildungsmakrosegment bezeichnet wird und dem Vor- 
gabemakrosegment sehr ahnlich ist. 



10 



15 



20 



Mit dem erf indungsgemaBen Verfahren werden somit an die mit- 
tels des neuronalen Netzwerkes erzeugten Vorgabemakrosegemen- 
25 te der Grundf requenz angepafite Grundf requenzverlaufe mittels 
einzelner in einer Datenbasis gespeicherten Grundf requenzse- 
quenzen erzeugt. Hierdurch wird eine sehr nattirliche Ma- 
krostruktur sichergestellt , die zudem auch die detailgenaue 
Mikrostruktur der Grundf requenzsequenzen besitzt. 

30 

Ein derartiges Nachbildungsmakrosegment ftir das Wort ,,stop^' 
ist in Fig. Id gezeigt. 

Nachdem im Schritt S13 die Auswahl der Kombinationen von 
35 Grundf requenzsequenzen zur Nachbildung des Vorgabemakroseg- 
ments abgeschlossen ist, wird im Schritt S14 geprtift, ob fUr 
eine weitere phonetische linguistische Einheit ein weiterer 
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zeitlicher Verlauf der Grundf requenz erzeiigt werden muB. Er- 
gibt diese Abfrage im Schritt S14 ein springt der Pro- 

grammablauf auf den Schritt Sll zurlick, andernfalls verzweigt 
der Programmablauf auf den Schritt SI 5, mit dem die einzelnen 
5 Nachbildungsmakrosegmente der Grundf requenz zusammengesetzt 
werden . 

Im Schritt SI 6 werden die Verbindungsstellen der einzelnen 
Nachbildungsmakrosegmente aneinander angeglichen, wie es in 

10 Fig. 3 dargestellt ist. Hierbei werden die Frequenzen links 
fi und rechts fr von den Verbindungsstellen V einander ange- 
paRtf wobei die Endbereiche der Nachbildungsmakrosegmente 
vorzugsweise derart verandert werden, daft die Frequenzen fi 
und fr den gleichen Wert besitzen. Vorzugsweise kann im Be- 

15 reich der Verbindungsstelle der Obergang auch geglattet 
und/oder stetig gemacht werden. 

Nachdem ftir alle linguistisch phonetischen Einheiten des Tex- 
tes die Nachbildungsmakrosegmente der Grundf requenz erstellt 
20 und zusammengesetzt worden sind, wird das Unterprogramm been- 
det und der Programmablauf geht zuriick zum Hauptprogramm 
(517). 

Mit dem erf indungsgemaften Verfahren kann somit ein Verlauf 
25 einer Grundf requenz erzeugt werden, der der Grundf requenz ei- 
ner naturlichen Sprache sehr ahnlich ist, da mittels des neu- 
ronalen Netzwerkes einfach grofiere Kontextbereiche erfaftt und 
ausgewertet werden konnen (Makrostruktur ) und zugleich mit- 
tels der in der Datenbasis gespeicherten Grundf requenzsequen- 
30 zen feinste Strukturen des Grundf requenzverlaufes entspre- 
chend der natOrlichen Sprache erzeugt werden konnen (Mi- 
krostruktur) . Hierdurch wird eine Sprachausgabe mit einem we- 
sentlich natUrlicheren Klang als bei bisher bekannten Verfah- 
ren ermoglicht. 

35 

Die Erfindung ist oben anhand eines Ausftihrungsbeispiels na- 
her erlautert worden. Die Erfindung ist jedoch nicht auf das 
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konkrete Ausf iihrungsbeispiel beschrankt, sondern im Rahmen 
der Erfindung sind iinterschiedlichste Abwandlungen moglich. 
So kann z.B. die Reihenfolge, wann die Grundf requenzsequenzen 
aus der Datenbasis und wann das neuronale Netzwerk das Vorga- 
5 bemakro segment erstellt, variiert werden. Es ist z.B. auch 

moglich, daB zunachst flir alle phonetisch linguistischen Ein- 
heiten Vorgabemakrosegmente erzeugt warden und dann erst die 
einzelnen Grundf requenzsequenzen ausgelesen, kombiniert, be- 
wertet und ausgewahlt werden._im Rahmen der Erfindung konnen 

10 auch unterschiedlichste Kostenfunktionen angewandt werden, 
solange sie eine Abweichung zwischen einem Vorgabemakroseg- 
ment der Grundf requenz und Mikrosegmente der Grundf requenzen 
berucksichtigen. Das oben beschriebene Integral der lokalen 
Kostenfunktion kann aus numerischen Grtinden auch als Surame 

15 dargestellt werden. 
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Patentanspriiche 

1 . Verf ahren zum Bestimmen des zeitlichen Verlauf s einer 
Grundf requenz einer zu synthetisierenden Sprachausgabe^ iim- 
5 fassend die Schritte: 

Bestimmen von Vorgabemakrosegmenten der Grundf requenz 
mittels eines neuronalen Netzwerkes^ und 

Bestimmen von Mikrosegmenten mittels in einer Datenbasis 
gespeicherten Grundf requenzsequenzen, wobei die Grundfre- 
10 quenzsequenzen derart aus der Datenbasis ausgewahlt werden, 

daB durch die auf einanderfolgenden Grundf requenzsequenzen das 
jeweilige Vorgabemakrosegment mit moglichst geringer Abwei- 
Chung nachgebildet wird. 

15 2. Verf ahren nach Anspruch 1, 

dadurch gekennzeichnet, 
daJi die Vorgabemakrosegmente einen Zeitbereich abdecken, 
der einer phonetisch linguistischen Einheit der Sprache, wie 
z,B. einer Phrase, einem Wort oder einer Silbe, entspricht- 

20 

3. Verf ahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet, 

daB die Grundf requenzsequenzen der Mikrosegmente die 
Grundf requenzen jeweils eines Phonems darstellen. 

25 

4. Verf ahren nach einem der Ansprtiche 1 bis 3, 
dadurch gekennzeichnet, 

daB die Grundf requenzsequenzen der Mikrosegmente, die in- 
nerhalb eines zeitlichen Bereiches eines der Vorgabemakroseg- 
30 mente liegen, zu einem Nachbildungsmakrosegment zusammenge- 
setzt werden, wobei die Abweichung des Nachbildungsmakroseg- 
ments zum jeweiligen Vorgabemakrosegment ermittelt wird, und 
die Grundf requenzsequenzen derart optimiert werden, daB die 
Abweichung moglichst gering ist. 

35 



5, Verf ahren nach Anspruch 4, 
dadurch gekennzeichnet. 
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dafi ftir die einzelnen Mikrosegmente jeweils mehrere 
Grundf requenzsequenzen ausgewahlt werden konnen, wobei dieje- 
nigen Kombinationen von Grundf requenzsequenzen ausgewahlt 
werden, die die geringste Abweichung zwischen dem jeweiligen 
5 Nachbildungsmakrosegment und dem jeweiligen Vorgabemakroseg- 
ment ergeben. 

6. Verfahren nach Anspruch 4 oder 5, 
dadurch gekenn. zeichnet/ 

10 daB die Abweichung zwischen dem Nachbildungsmakrosegment 

und dem Vorgabemakrosegment mitt els einer Kostenf unktion er- 
mittelt wird, die derart gewichtet ist^ daB bei geringen Ab- 
weichungen von der Grundf requenz des Vorgabemakrosegment s le- 
diglich eine kleine Abweichung ermittelt wird, wobei bei 

15 Oberschreiten vorbestimmter Grenzf requenzdif f erenzen die er- 
mittelten Abweichungen stark bis z\im Erreichen eihes Satti- 
gungswertes ans teigen . 

7. Verfahren nach einem der Anspriiche 4 bis 6, 
20 dadurch gekennzeichnet, 

daB die Abweichung zwischen dem Nachbildungsmakrosegment 
und dem Vorgabemakrosegment mittels einer Kostenf unktion er- 
mittelt wird, mit der eine Vielzahl von iiber die Makrosegmen- 
te verteilt angeordnete Abweichungen bewertet werden, wobei 
25 die Abweichung desto schwacher gewichtet werden, je naher sie 
am Rand einer Silbe angeordnet sind. 

8. Verfahren nach einem der Anspriiche 4 bis 7, 
dadurch gekennzeichnet, 

30 daB beim Auswahlen der Grundf requenzsequenzen die einzel- 

nen Grundf requenzsequenzen mit den hierzu jeweils nachfolgen- 
den bzw. vorhergehenden Grundf requenzsequenzen nach vorbe- 
stimmten Kriterien abgestimmt werden, und lediglich Kombina- 
tionen von Grundf requenzsequenzen zum Zusammensetzen zu einem 

35 Nachbildungsmakrosegment zugelassen werden, die die Kriterien 
erfUllen. 



wo 01/31434 



PCT/DEOO/03753 



15 

9. Verfahren nach Anspruch 8, 
dadurch gekennzeichnet, 

dalJ die Beurteilung benachbarter Grundf requenzsequenzen 
mittels einer Kostenf unktion erfolgt, die einen zu minimie- 
5 renden Ausgabewert fur eine Verbindungsstelle der Grundfre- 
quenzsequenzen benachbarter Grundf requenzsequenzen erzeugt, 
der desto grofier ist, je grolier die Differenz am Ende der 
vorhergehenden Grundf requenzsequenz zur Frequenz am Anfang 
der nachfolgenden Grundf requenzsequenz ist. 

0 

10. Verfahren nach Anspruch 9, 
dadurch gekennzeichnet, 

daB die der Ausgabewert desto schwacher gewichtet wird, 
je naher die jeweilige Verbindungsstelle am Rand einer Silbe 
5 angeordnet ist, 

11. Verfahren nach einem der Anspruche 1 bis 10, 
dadurch gekennzeichnet, 

daB die einzelnen Makrosegmente mitteinander verkettet 
0 werden, wobei an den Verbindungsstellen der Makrosegmente die 
Grundf requenzen aneinander angepaJit werden. 

12. Verfahren nach einem der Anspruche 1 bis 11, 
dadurch gekennzeichnet, 

5 daB die neuronalen Netzwerke die Vorgabesegmente fur ei- 

nen vorbestimmten Abschnitt eines Textes auf Grundlage dieses 
Textabschnittes und eines diesem Textabschnitt vorausgehenden 
und/oder nachfolgenden Textabschnittes bestimmen. 

0 13. Verfahren zum Synthetisieren von Sprache, bei dem ein 

Text in eine Folge akustischer Signale gewandelt wird, umfas- 
send folgende Schritte: 

Wandeln des Textes in eine Folge von Phonemen, 
Erzeugen einer Betonungsstruktur , 
5 Bestimmen der Dauer der einzelnen Phoneme, 

Bestimmen des zeitlichen Verlaufs einer Grundf requenz 
nach dem Verfahren gemaB einem der Anspruche 1 bis 12, 
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Erzeugen der die Sprache darstellenden akustischen Signa- 
le auf Grundlage der ermittelten Folge von Phonemen und der 
ermittelten Grundf requenz • 
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